\chapter{Stratégies d'analyse}

\section{Critères d'analyse}
Les critères de comparaison que nous avons choisi sont les suivants : 
\begin{itemize}
\item la taille (ou le poids) de la protéine,
\item le nombre de chaînes,
\item le nombre d'hélices alpha, de feuillets bêta, de coudes,
\item le pourcentage d'acides aminés hydrophobes,
\item son pHi ou point isoélectrique.
\end{itemize}

\subsection{Pourcentage d'acides aminés hydrophobes}
Nous allons utiliser un partitionnement avec la technique du k-means pour former 
\begin{itemize}
\item un groupe pour les protéines les plus hydrophobes, 
\item un groupe pour protéines plus ou moins  neutres,
\item et un groupe pour les protéines les moins hydrophobes.
\end{itemize}

\subsection{Longueur en acides aminés}
En biochimie, les molécules :
\begin{itemize}
\item de moins de 20 acides aminés sont considérées comme des peptides,
\item celles de 20 à 100 acides aminés comme de petites protéines,
\item celles de 100 à 300 comme des protéines de taille moyenne,
\item et enfin celle de plus de 300 acides aminés comme des protéines de grande taille.
\end{itemize}
C'est donc ainsi que nous partionneront nos protéines en 4 clusters selon leur taille. 

\subsection{Point isoélectrique}
Nous allons utiliser un partitionnement avec la technique du k-means pour former 
\begin{itemize}
\item un groupe pour les protéines les plus basiques, 
\item un groupe pour protéines plus ou moins  neutres,
\item et un groupe pour les protéines les plus acides.
\end{itemize}

\subsection{Nombre de chaînes}
Les multimères étant souvent des dimères, des tétramères ou des octamères, nous avons choisi de partitionner nos protéines en 5 groupes :
\begin{itemize}
\item le groupe des protéines monomériques
\item le groupe des protéines dimèriques
\item le groupe des protéines de 3 à 4 sous-chaînes
\item le groupe des protéines de 5 à 8 sous-chaînes
\item le groupe des protéines de plus de 8 sous-chaînes
\end{itemize}

\subsection{Structures secondaires}
Étant donné que le nombre d'hélices ou de feuillets peut relativement varier entre deux protéines d'une même famille, réaliser une classification en fonction de ce paramètre utilisé de manière trop stricte pourrait séparer des protéines très proches par les autres critères. 
C'est pourquoi nous avons pensé nous limiter à la discrimination des protéines en fonction de la présence ou de l'absence de ces structures. 


\section{Stratégie hiérarchique}
Pour cette stratégie, il faudrait partir de l'échelle la plus globale vers la plus fine pour comparer nos protéines. 

\subsection{Critères globaux}
Nous pensons, dans un premier temps, à son hydrophilie déterminant sa forme globale (fibrillaire ou globulaire) et sa position dans la cellule (membranaire ou cytoplasmique). 
Viendraient ensuite le point isoélectrique et la taille utilisés conjointement lors des électrophorèses en deux dimensions. 

\subsection{Critères locaux}
Le critère suivant serait le nombre de chaînes de la protéine, suivi des structures secondaires telles que les hélices, feuillets et coudes.

\section{Stratégie par pondération}
Une autre stratégie consisterait à affecter un poids à la distance calculée pour chaque critère, puis d'additionner ces distances pondérées pour ne plus obtenir qu'une distance globale pour chaque couple de protéines. 
Cette approche aurait l'avantage d'être plus facilement utilisable car les paramètres sont facilement accessibles, via la modification des poids. 

\section{Combinaison des deux stratégies}
La combinaison de stratégies "bottom-up" et "top-down" s'avère plus performante que l'utilisation d'une seule de ces stratégies.
Nous avons donc pensé utiliser une stratégie basée sur une hiérarchie de critères de comparaison en "top-down", puis une stratégie basée sur la pondération des distances entre protéines en "bottom-up".
\paragraph{}
Dans la seconde stratégie, nous calculerions une matrice de distances, qui contiendrait les distances globales de protéine à protéine. 
Cette distance globale serait calculée par la somme pondérée des distances obtenues pour chaque critère. 
\paragraph{}
Nous pourrions à la fin calculer la distance globale moyenne entre deux protéines de même cluster et la distance globale moyenne entre deux protéines de clusters différents. Ces deux paramètres pourraient ainsi nous permettre d'évaluer la qualité de notre analyse. 


%%% Local Variables: 
%%% mode: latex
%%% TeX-master: "../main"
%%% End: 
